谷歌发布数据共享模型上下文协议服务器,使开发者和AI智能体能够通过自然语言访问真实世界统计数据。该服务整合了政府调查、行政数据和联合国等全球机构的公共数据集。新服务旨在解决AI系统训练中常见的数据噪声和幻觉问题,为AI提供可验证的结构化信息。谷歌还与ONE Campaign合作推出数据智能体工具,该开源服务器兼容任何大语言模型。
西湖大学团队开发出VLA-Adapter机器人控制系统,仅用0.5B参数就超越了7B参数的传统系统。该系统通过Bridge Attention机制实现视觉-语言-动作的高效转换,训练成本降低38倍,推理速度快3倍,在LIBERO测试中达到97.3%成功率。创新点在于设计专门的信息桥接机制而非单纯扩大模型规模,为机器人控制技术普及提供了新路径。
微软宣布从周三开始将Anthropic的AI模型集成到其Copilot助手中,此前该助手主要依赖OpenAI技术。企业用户可在OpenAI的深度推理模型和Anthropic的Claude Opus 4.1、Claude Sonnet 4之间选择,用于复杂研究和构建定制AI工具等任务。此举标志着微软与OpenAI这对曾经独家合作伙伴关系的进一步松动。
Gensyn团队提出SAPO分布式AI训练方法,让普通设备通过分享学习经验协作训练语言模型。实验显示,采用50%本地和50%外部经验的均衡策略,小型AI模型性能提升94%。该方法避免了传统分布式训练的同步瓶颈,为AI训练民主化开辟新路径。
苹果研究人员开发出SimpleFold,这是一个轻量级的蛋白质折叠预测AI模型。与谷歌DeepMind的AlphaFold等需要极其昂贵计算资源的模型不同,SimpleFold采用流匹配模型技术,跳过多个去噪步骤,降低计算成本并提升生成速度。研究团队训练了从1亿到30亿参数的多个版本,在CAMEO22和CASP14基准测试中表现出色,且模型规模越大性能越好。
曼彻斯特大学研究团队发现,尽管AI语言模型在多数任务中表现优异,但在理解"Drivelology"(一种表面荒诞但蕴含深意的语言现象)时却频频失误。研究团队构建了涵盖六种语言的1200多个样本数据库,通过四项测试发现AI模型难以掌握这类文本的讽刺意图和文化内涵,揭示了当前AI在语用理解方面的根本局限。
数据中心现场发电能力可提升可靠性并满足不断增长的能源需求,但传统发电厂建设复杂昂贵。燃料电池提供了替代方案,能以更简单、可扩展的方式现场发电。微软、Equinix和亚马逊等公司已开始试用燃料电池作为主备电源。燃料电池具有可扩展性、可持续性和现场部署优势,但成本较高且燃料获取困难。
OpenAI团队的最新研究揭示了大语言模型产生幻觉的根本原因:AI就像面临难题的学生,宁愿猜测也不愿承认无知。研究发现,即使训练数据完全正确,统计学原理也会导致AI产生错误信息。更重要的是,现有评估体系惩罚不确定性表达,鼓励AI进行猜测。研究提出了显式置信度目标等解决方案,通过改革评估标准让AI学会诚实地说"不知道",为构建更可信的AI系统指明方向。
医疗设备融资达到2021年以来最高水平,但MRI设备仍面临成本高昂、仅限大医院使用的问题。巴黎初创公司Chipiron创始人兼CEO Evan Kervella分享了解决方案。传统MRI依赖超导磁体和液氦,难以规模化。Chipiron正开发轻量级MRI技术,注重安装便利性和患者体验,不与传统设备竞争,而是让MRI技术在更多场所普及应用。
字节跳动AI实验室提出"逆向工程推理"新范式,通过从优质作品反推思考过程的方式训练AI进行创意写作。该方法创建了包含2万个思考轨迹的DeepWriting-20K数据集,训练的DeepWriter-8B模型在多项写作评测中媲美GPT-4o等顶级商业模型,为AI在开放性创意任务上的应用开辟了新道路。
AI初创公司Modular完成2.5亿美元C轮融资,估值达16亿美元。该公司提供统一平台,让开发者无需重写代码即可在不同芯片上运行AI应用,包括CPU、GPU、ASIC和定制芯片。公司旨在打破英伟达CUDA的垄断局面,为企业提供更多硬件选择自由。其平台已支持英伟达、AMD和苹果架构,在新一代加速器上性能提升20%-50%。
ByteDance Seed团队开发的UI-TARS-2是一个革命性的AI助手,能够通过观看屏幕并用鼠标键盘操作电脑,就像人类一样完成各种任务和游戏。该系统采用创新的"数据飞轮"训练方法,在多项测试中表现出色,游戏水平达到人类的60%左右,在某些电脑操作测试中甚至超越了知名AI产品,展现了AI从对话工具向真正智能助手演进的巨大潜力。